ML模型通常使用高质量的大型数据集进行培训。但是,训练数据集通常包含不一致或不完整的数据。为了解决这个问题,一个解决方案是开发可以检查模型的预测是否是可证明的算法的算法。给定生成分类器的学习算法并在测试时间时给出示例,如果通过在不确定(不一致)数据集的所有可能的世界(维修)训练的每个模型中预测,则对分类结果是可证明的稳健。这种坚固性的概念自然地在某些答案的框架下落下。在本文中,我们研究了一个简单但广泛部署的分类算法的认证稳健性的复杂性,$ k $-nearest邻居($ k $ -nn)。当完整性约束是功能依赖性(FDS)时,我们的主要焦点在于不一致的数据集。对于这种环境,我们在认证稳健性W.R.T的复杂性方面建立了二分法。该组FDS:问题要么承认多项式时间算法,或者它是坚固的。此外,我们对问题的计数版本表现出类似的二分法,其中目标是计算预测某个标签的可能世界的数量。作为我们研究的副产品,我们还建立了与寻找可能是独立兴趣的最佳子集修复相关的问题的复杂性。
translated by 谷歌翻译